今后如果没有特殊情况,生信菜鸟团成员将每周为大家带来一期文献速递,推荐我们过去一周看到的好文献。所有的推荐完全不独立公正第三方,只是根据个人喜好推荐,希望对你有所帮助。
所推荐的文献绝大多数都来自推送之日起近两周的文献,如果你发现哪个人推荐的内容比较久,那应该是这个孩子最近偷懒了。
菜鸟团一周文献推荐(No.1)
供稿人:lakeseafly
文章信息
题目:Plant Pangenome: Impacts On Phenotypes And Evolution
杂志: Annuals Plant Reviews
时间:March 2019
链接: https://hal.archives-ouvertes.fr/hal-02053647/document
figure
文章介绍:
摘要
随着低成本高通量测序技术的出现,众多研究表明,单一的参考基因组不足以识别物种中存在的所有基因。最近,泛基因组这个概念已被广泛用于研究所有个体集合的基因组的组成。该泛基因组包含核心基因组,包括所有所有个体共享的核心基因,以及可有可无的可变基因,由仅存在于某些个体中的基因序列组成。 泛基因组学分析开辟了新的方法,来同时研究和比较密切相关的个体的多个基因组,提供了更广泛的优化育种的方式和新的机会研去究物种的进化论。未来,这一新兴概念与第三代测序技术相结合,将为发现新基因提供了前所未有的机会,可以充分发掘
遗传多样性和推进有关塑造基因组和动态的进化的研究发展。
个人评价
总的来说这篇文章是一篇很好的泛基因组入门的读物,囊括的范围很广,从基本概念,到构建泛基因组方法的分类,再到分析各种产生PAVs的原因,与讨论了泛基因组的应用还有其未来的发展方向。这文章作为一篇基础的读物还不错,适合没有刚刚基础这个概念的同学,但是并没有很深入讨论里面的每一个点,如果你是这个领域的行家,并不是很推荐这文章。
供稿人:冰糖
文章信息
题目:Similarities and differences between variants called with human reference genome HG19 or HG38
杂志:BMC Bioinformatics
时间:14 March 2019(Published)
链接:
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2620-0
figure
分析流程
文章介绍:
本文介绍了一个挺有意思的工作,比较了两个版本的参考基因组hg19和hg38究竟在后续的比对及SNV分析中有哪些差异。
本文使用的全基因组测序数据来自于genome-in-a-bottle (GIAB) project,比对使用Bowtie2、BWA及ISAAC三种软件,Call SNV使用FreeBayes、GATK HaplotypeCaller (HC)、ISAAC、SAMtools 四种软件,比对结果还使用GATK 进行了校对,所以每个参考基因组共有3*2*4=24种流程,另有2个pipeline数据下载自GIAB,每个参考基因组共计26个SNV数据。SNV获得后,使用两个转换软件Picard、CrossMap进行两种参考基因组版本间的转换,比较转换的成功率,并将转换的SNV数据同直接进行比对的SNV数据进行对比。
结果发现,hg38转换成hg19的成功率约为95%,低于hg19转换成hg38的99%。由于hg38是更新的参考基因组版本,补充完善了很多缺口和位点,因此hg38中存在很多hg19不包含的位点,所以hg19转换为hg38的成功率会更低。而且在转换成功的SNV中,hg19转换成hg38的SNV比直接使用hg38的SNV会存在更多的位点或基因型差异,作者称之为SNV不平衡(discordant),作者建议使用hg38版本。
此外作者还发现,就比对率来说Bowtie2、BWA及ISAAC三者没有差异,但是Bowtie2具有最低的SNV不平衡率(discordant rate)1.10% ± 0.20% ,bwa最差,为1.80% ± 0.41% 。而就SNV转换软件来说,CrossMap相比较Picard具有更大的SNV不平衡率,作者建议使用Picard进行SNV转换。
供稿人:Sunshine
文章信息
题目:Drug repositioning through integration of prior knowledge and projections of drugs and diseases
杂志:Bioinformatics
时间:13 March 2019(Published)
链接: https://www.ncbi.nlm.nih.gov/pubmed/30865257
figure
分析流程
文章介绍:
这篇文章主要是讲作者开发了一种新的算法DisDrugPred用于药物的重定位,建立起药物和疾病的新关系。作者首先指出,目前大多数开发的方法集中于从多种来源整合药物和疾病的异质数据,来预测候选药物 - 疾病关联。然而,这些方法未能将先验的药物和疾病知识及其他们的稀疏特征考虑在内。因此,才提出自己开发一种方法的必要性。
本文使用的数据源包括,drug-disease association data is originally extracted from the Unified Medical Language System,药物的化学结构信息来自Pubchem,药物靶点蛋白和GO注释来自UniPro和InterPro,药物的不良反应信息来自SIDER数据库,疾病的相关基因来自DincRNA数据库,疾病相似性用Disease Ontology和GO Term来注释。
具体的算法细节,感兴趣的同学可以自行查看学习,作者首先计算基于5种特征计算药物的相似性方法,包括化学结构相似性,靶蛋白作用域相似性,靶蛋白功能相似性,疾病相似性,副作用相似性。疾病相似性主要是基于term相似性和DO相似性。基于先验知识,构建疾病和药物信息的关联信息。接着作者基于上述数据,将药物和疾病投射到一个共同的和低维特征空间有助于测量距离它们之间。这些药物和疾病之间的距离也很密切与他们的关联可能性有关。因此,构建了统一的模型为了求解模型,开发了迭代优化算法预测药物和疾病的关系。最后基于交叉验证表明DisDrugPred明显优于几个最先进的预测方法。
供稿人:kaopubear
文章信息
题目:RnBeads 2.0: comprehensive analysis of
DNA methylation data
杂志:Genome Biology
时间:14 March 2019
链接: https://doi.org/10.1186/s13059-019-1664-9
figure
Overview of the RnBeads analysis workflow and new features added in RnBeads 2.0.
文章介绍:
DNA甲基化是一种被广泛研究的表观遗传标记,其在发育和疾病中具有重要作用。最近甲基化分析工具 RnBeads 在 bioconductor 上更新了其2.0版本。它可以分析目前诸多种类的甲基化数据,并且可以完成目前甲基化分析相关所有主流内容。
本次升级主要是在输入数据、分析方法、交互界面以及计算效率上进行了提升。软件官方地址为 https://rnbeads.org/index.html 可以进行进一步了解。
在文章中给出了三个应用示例。分别是使用 Infinium 450k 芯片分析大量的血液样本 DNA 甲基化数据;利用 WGBS 数据在全基因组范围内分析造血细胞的DNA甲基化情况;利用 RRBS 数据分析在肿瘤中对DNA甲基化异质性进行定量分析。我没有测试是不是文章中所有的图都是 R 包直接出图,如果是的话感觉整体分析起来还是比较方便。
供稿人:鲍志炜
文章信息
题目:Streaming histogram sketching for rapid microbiome analytics
杂志:Microbiome
时间:16 March 2019
链接: https://doi.org/10.1186/s40168-019-0653-2
figure
文章介绍:
近年来公共微生物组数据的增长为研究提供了宝贵的资源,也让我们得以增加新的数据和重新分析已发表的数据。但在大量的数据面前,我们也迫切地需要能够在更短的时间内处理这些数据。
为了满足这一需求,作者提出了一种新的方法,基于 streaming k-mer 的范围相似性来创建微生物组草图来实现微生物组测序数据的降维。这些草图可以进行相似性分析,快速地微生物组目录检索和微生物组样品的分类。
除此之外,作者还使用了108个新生儿的微生物组数据(包含使用抗生素和不使用抗生素)来测试这种草图是否可用于训练模型来区分不同的样本。结果表明,该随机森林模型可以较好地区分新生儿是否经过抗生素治疗 (97% accuracy, 96% precision) 。
Histosketching Using Little K-mers (HULK) 使用Go语言编写,并可使用Bioconda安装,项目详见:https://github.com/will-rowe/hulk 。
下周再见